小心“踩雷”!影响力评估的十个误区 | 深一度思考
———— 荐读 ————
贾西津,清华大学公共管理学院副教授,清华大学公益慈善研究院副院长:
影响力评估是“结果说话”和“数据说话”两个维度的交点。“结果说话”意味着可能会忽略什么呢?可能会忽略要解决的问题,还没有执行好过程就忙于显示绩效。“数据说话”意味着可能会忽略什么呢?可能会忽略假设、理论、测试、思考,或者用更简单的方法收集信息。
这正是本文作者列出的4类10种不适合评估影响力的情境,即:无的放矢、未做就评、力不从心、无用之举。作者对每种情境提出的替代方案则是回到被忽略的那一面。如果说“建立适宜的数据体系”是作者想提出的实操原则,那其背后的问题更值得相关者关注:工具是好的,数据是好的,但不要忘记时时反省,回到目的。
好的影响力评估能对相关政策问题提供严谨的答案,促进相关领域知识、政策和实践的发展。但仍有大量资金和时间被浪费在了设计不良、执行不力、构思不佳的影响力评估项目上。
影响力评估的泛滥不仅会引发劣质研究和资金浪费,还会分散和抢夺数据收集所需要的资源,而正确的数据收集方式可以帮助组织提高项目绩效。
为了建立一个适合的证据体系,我们要考虑的不仅是何时去衡量影响力,更重要的是知道何时不要去衡量影响力。
既然影响力评估如此重要,那么我们为何还要倡导对其使用加以限制?影响力评估迅速升温的背后是收集和分析数据成本的急剧下降。以往非营利组织可能觉得收集数据太过耗时、耗钱,而如今收集、储存和分析数据的费用已经大幅降低。
衡量项目成果变得容易了,公共和社会部门也对问责有了更多的要求。盖茨基金会等资助机构都要求被资助的组织能够提供影响力的证据。社会影响力债券和按成果付费等做法通过将资金与被证实的成果绑定,来资助有效的行动。
虽然影响力评估的潮流目前多半是积极的,但是,对彰显影响力的强行要求也造成了资源的浪费,使得项目监测向影响力评估妥协,还助长了劣质甚至是误导性的影响力体现方式。例如,许多组织收集的数据都超出了它们手头的资源能够分析的范围,导致时间和人力的浪费。糟糕的影响力评估还可能带来误导性的甚至全然错误的结果,从而引发未来决策的偏差。
这些浪费许多是源自对“影响力”这个词的滥用。影响力不仅仅是个流行语,也体现了某种因果关系。它告诉我们,一个项目或组织如何改变了周遭的世界。也就是说,影响力评估必须包括对这一项目不存在的情境进行的评估,即评估者们所说的“反向事实”。在条件允许的情况下,创建一个反向事实的最直接方式就是随机对照试验。
在以下的篇幅中,我们将列出10个不适合评估影响力的情境,并在此基础上提出一个建立合体的监测与评估体系的框架,来帮助非营利组织找到问责、学习与改善等不同场合所需的数据。
影响力评估的10个误区可以分为四个类型:无的放矢、未做就评、力不从心、无用之举。在下文中,我们会对这10个误区做详细解说,同时为热衷于影响力评估的人们提供有关替代办法的建议。
1、手段与目标不匹配。
在评估一个项目时,你可以思考以下这些问题:一个成功或失败的项目的服务对象背后的故事是怎样的?我们是否能够通过改进运作模式,来降低相同服务的成本?我们是否在服务目标人群?
这些通常都是主要的利益相关者希望知道的问题。这些问题中的一部分可以通过数据来回答,而其余的则比较难以处理。但关键在于,这些问题的答案并不是对影响力的衡量。
替代办法:想要回答这些问题,数据的收集和分析就必须更加精确地聚焦所提出的问题。对目标人群满意度的了解需要的是反馈数据。改善项目执行的成本效益需要的是每一个场所、产品或服务的具体成本数据。这些都是有待收集的重要的项目监测数据,但它们当中没有哪一个用得着影响力评估。
2、 项目设计不到位。
运用变革理论是设计一项监测或评估的第一步。变革理论说明的是一个项目应该包含哪些内容、需要完成哪些工作,以及因此而预期产生哪些改变。没有类似的梳理,执行人员就无法对如何运作项目、为什么要这么做形成清晰的理解,而这可能导致执行当中出现巨大的偏差。如果在变革理论中的关键假设经过检验之前就开展大规模影响力评估,很可能产生误导和对如何解读结果的意见不一。
替代办法:对变革理论中的基本步骤进行验证是影响力评估开展前的关键。以一个通过向准妈妈传播儿童健康发育和营养信息,来改善产前护理成果的项目为例,如果在尚未了解准妈妈们是否会出席培训、采纳推荐的做法之前就开始影响力评估,那就毫无意义。因此,首先要确保的就是项目得到基本的参与。
如果一个变革理论尚在搭建的过程中,那么要做的显然是围绕该项目搭建理论,根据项目执行的每个步骤来检验做出的相应假设,并收集数据进行测试,接着是收集项目执行和使用的监测数据,最后才是影响力评估。
3、 项目执行不给力。
如果发现一个执行不力的项目缺乏影响力,这样的评估是很难说清楚的。这一发现是执行不力的结果呢,还是因为内乱以及其他外部因素的干扰?不管怎样,如果项目的执行情况不给力,那么此时进行影响力评估实为不妥。
替代办法:采集优质的监测数据,并将其用于项目执行情况的改善。评估者可以与项目领导者合作来改善执行情况,也可以决定某一组织并不适合进行影响力评估。
4、为时已晚。
对影响力评估的渴望常常出现在一个项目已经扩大规模且无继续扩张的计划之时。然而,此时可能为时已晚。
替代办法:为将来的扩展制订计划。这一项目会在其他地方扩大规模吗?如果会,那么可以考虑影响力评估是否可行。此外,如果这一项目随着非营利组织的学习与改进已经发生了很大的变化,那么影响力评估可能正当其时。
5、 没有足够的资源。
资源受限会从两个方面影响评估的质量:项目规模可能太小,或者资源太少以至于无法进行高质量的评估。
替代办法:如果你的规模有限,就不要试图勉强回答关于影响力的问题,而是去考虑一下其他的选择。因为你面对的问题多半在别处已经有了答案。通过查阅文献可以了解其他相关领域的评估对此有何回应。如果资金有限,非营利组织需要重新考虑成本的构成。数据的获取是评估的一项主要花费。而随机对照试验的随机部分实际上是没有成本的。
6、 无法确定项目的间接影响。
许多项目都包含对项目变革理论至关重要的间接影响。例如:一个农业信息干预项目在教授农民新科技的同时,期待他们把所学在邻里家族中分享。正确衡量这些间接影响对于理解一个项目真正的影响力非常重要。
替代办法:对项目间接影响的评估可以是高质量评估的一个重要组成部分。在考虑如何应对间接影响的时候,首先应当回顾现有的文献和理论来预测这些要素的重要性。
7、项目环境有太多变数。
有些情境不适合开展影响力评估。例如,很多救灾行动随着形势的变化必须不断地进行调整。此时,严格遵照设计方案执行会增加成本,影响项目执行的质量。
替代办法:追踪项目执行情况,并收集其他可用于强化项目的管理数据。例如,可以考虑是否存在有价值的操作性问题。一些操作性测试可以帮助改进执行情况,例如:通过短信提醒服务对象是否会影响其短期行为?
8、 执行层级“高不可攀”。
试想一下货币或贸易政策。这类改革通常发生在国家层面,在全国范围内进行政策的随机对照试验显然是不可行的。同样,政策倡导运动常常瞄准国家或地区等较高层级,因此也不容易进行影响力评估。
替代办法:预期政策如何变化的清晰理论是关键所在。然后就是追踪执行情况,获取反馈信息,并收集管理数据,以显示该理论所暗含的变化是否如期发生。
9、 重复评估。
在一些情况下,一个项目是否有效可以从另外一项或一系列研究中得到解答。此时,再做一次影响力评估不会带来任何新的收获。
替代办法:拒绝不必要的影响力评估,找到好的理论依据,来证明现有的证据可以应用到手头的项目当中。简而言之,两个主要的条件对评估现有研究的适用性非常重要:首先,所评估项目的理论必须要与你的项目相类似;其次,项目的背景特征应当相对清晰,并且与你手头项目的背景相类似。
10、没有应用价值。
一项影响力评估不仅是为了表明项目是否有效,还应该帮助揭示项目为何有效。如果不能解答“为什么”,评估仅对执行该项目的组织和具体的项目有用,没有可以推广的知识经验,那么该影响力评估就不该进行。这一准则适用于那些几乎没有扩大规模之可能的项目。
替代办法:如果一个项目缺乏扩大或复制的潜力,那么最好的行动方案就是衡量执行情况,以确保项目的实施符合预期。如果需要关于“为何”的答案,那么一个清晰的项目理论和优质的执行数据能够帮助理解这一项目为何有效。但在这种情形下,进行投资影响力评估则是不恰当的。
本文对影响力评估所提出的质疑也许可以理解为从另一个角度思考在正确的时机,对决策者进行更加有用的严谨评估的必要性。当非营利组织或项目尚未准备好进行影响力评估时,它们仍然需要优质的数据来协助决策或改进项目模式的执行。而当一个或数个随机评估显示某种模式确实有效且已做好扩大规模的准备时,一个基于完善的变革理论的监测体系就是关键一环,它可以在项目扩大规模时确保其执行的质量。而在过渡时期,我们希望能将大家的注意力转移到有助于组织学习与改进的证据体系的建立上来。
声明:文章仅代表作者个人观点,不代表SSIR编辑部立场
SSIR1分钟前
影响力评估的十大误区,你有“中招”吗?欢迎在文末留言交流。我们将把SSIR中文版赠与优秀的留言者
购书看这里
复制如下口令在淘宝打开
🔗淘口令 :¥WwbkY57kHrF¥
即可购买SSIR中文版!
推荐阅读
更多平台
对「社会创新」的案例、观点、方法感兴趣的朋友,我们分享以下资源和平台:
《斯坦福社会创新评论》英文网站:https://ssir.org/ ,提供大量免费在线文章;
微博/今日头条账号:“斯坦福社会创新评论”,发布中文版原版精选文章和最新资讯
扫描文末二维码可关注我们的公号;如果你觉得本文有所启发,别忘了点赞➕转发!
如需转载,请添加客服微信(lepingsitanfu)